半年後にAIはいったいどうなっているのか 2023年上半期
この半年で
LLM
画像生成
Stable diffusionV1.4→Stable diffusion2.1
Midjourney→Nijijourney
Midjourney v3 → v4でNijijourneyは別枠にしたほうが正確かも?nomadoor.icon
音声認識
音楽生成
などなど色々公開された
次の半年でどうなるのか予想してみようwogikaze.icon
個人的には画像→音声と来たなら次は動画かな?と思っている
txt2animationの時代だ
アニメ(MMD)をi2iした動画は852話さんが作っていたが一貫性を持たせるのに苦労しているみたい この”一貫性”もキーワードになりそう
TTSはどうだろう、日本に住んでいるとゆっくりができてから長い年月が経って研究されているのでそこまで進まない? 半年じゃすぐに声を追加できる程度しか変わらなさそう
nomadoor.icon
大サービス乱立時代!
QRコード決済然り、NFT然り
txt2img,img2img,InstructPix2Pix etc.を完全に統合させて最初から最後まで完全にチャットのみのワークフロー実現
チャットのみのワークフローがそもそもあまりデザインと相性が良くなかった
二次元を二次元のまま扱うアニメーションモデル
MMDのimg2imgはロトスコープであってアニメではない(過激派) 動画を動画のまま学習させるモデルってあるんだろうか?
AIが直接現実世界を見て学ぶ
GPT-3みたいに臨界点を迎えれば動画AIもいきなり上手くいくかもしれない
でも現状学習させるための動画が足りないらしい
カメラつけて直接見てもらおう!
日本語で表現することに意味があるような気がしないこともない
コスパがよくない気がしてきた
ChatGPTとかが日本語で聞いたとき英語に翻訳しているのか、日本語のまま理解しているのかでも意見が変わりそう
企業からはいくつか出たけど、コミュニティとしてはほぼ何もなかったnomadoor.icon
リアルタイムレンダリング
Emadさん、30fps楽しみにしてます
コンピューティングのコスト的な意味で難しそう基素.icon
FlexGenとかを見てると最適化で辿りついてしまいそうな気もしますねnomadoor.icon 根本的なモデルの変化にも期待基素.icon
SnapFusionとかでやろうと思えばできそうだけど、捨てられないものが多いのかなかなか進まないnomadoor.icon 守備範囲を超えれば、ロボットにARにゲームに…ああ楽しみ!
総評 2023/7/1